데이터의 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 변수를 찾는 방법으로, 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수를 만들고 분산을 극대화하는 변수로 축약하는 방법으로 새로운 변수들은 변수들의 선형결합으로 이루어져 있다.
항목 : 거래수 빵,치즈,우유 : 10 사과,우유,치즈: 35 우유,빵,사과 : 10 빵,라면 : 25 우유,라면,치즈: 20 합계 : 100
●●◆●●
클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집분석 타당성 평가지표로 1에 가까울수록 군집화가 잘 되었다고 판단한다.
장바구니 / item 1 커피,빵 2 커피,계란,우유 3 계란,커피,빵,우유 4 계란,우유 5 커피,우유 6 커피,빵,계란 7 우유,빵